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尺度 无 关 的 级 联 卷 积 神经 网 络 人 脸 检测 算法 
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摘 要 : 卷 积 神经 网 络 在 进行 图 片 处 理 时 需要 输入 固定 尺寸 大 小 的 图 片 ， 该 限制 会 导致 原 图 在 放 缩 过 程 中 损失 大 部 分 
信息 。 另 外 ,目前 人 脸 检 测算 法 多 用 单一 结构 网 络 进行 特征 提取 , 这 就 使 得 算法 的 泛 化 能 力 较 弱 。 针 对 以 上 两 个 问题 ， 
提出 了 一 种 将 级 联 卷 积 神 经 网 络 与 空间 金字 塔 池 化 相 结合 的 人 脸 检 测算 法 。 该 方法 将 三 级 卷 积 神经 网 络 模型 连接 起 来 ， 
其 中 三 级 神经 网 络 模型 之 间 各 不 相同 ,结构 从 简单 到 复杂 ,在 不 同 层次 的 神经 网 络 上 提取 不 同 的 人 脸 特征 并 筛选 图 片 ， 
完成 对 图 片 中 人 脸 区 域 的 检测 。 同 时 ， 在 每 级 网 络 层次 中 加 入 空间 金字 塔 池 化 层 ， 这 种 池 化 策略 无 须 固定 尺寸 大 小 的 
输入 ， 增 加 了 模型 输入 的 尺寸 选择 。 在 标准 人 脸 数据 集中 ， 该 方法 相对 于 传统 方法 实现 了 模型 的 多 尺度 输入 ， 提 升 了 
检测 的 性 能 ， 并 降低 了 检测 人 脸 的 时 间 。 
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Face detection algorithm based on scale-independent cascade convolution neural network 


Zheng Chenghao?, Liu Bing*" Zhou Yong? 
(a. College of Computer Science & Technology, b. Institute of Electrics, Chinese Academy of Sciences, China University of 
Mining & Technology, Xuzhou Jiangsu 221116, China) 


Abstract: Since the convolution neural network needs to input a fixed size image when performing image processing, this will 


lead to the loss of most of the original information in the scaling process. In addition, the feature extraction of images will not 


be put in place when the network has only one structure. To solve the above two problems, this paper presented a face detection 
algorithm combining cascade convolution neural network and spatial pyramid pooling. In this method, it cascaded three different 
convolution neural network models, the structure of which were from simple to complex, and extracted different face features 
at different levels to complete the detection of the face areas of images. At the same time, it added the pyramid pool at each level 
of the network, and this pooling strategy did not require a fixed size input, increasing dimension selection of model input. 
Compared with the traditional method, this method realizes the multi-scale input of the model, improves the detection 
performance, and reduces the time of face detection in the standard face data set. 
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解 ， 这 样 才 有 可 能 设计 出 对 解决 该 问题 效果 较 好 的 特征 ， 从 而 
提升 系统 的 性 能 。 这 个 时 期 的 图 像 检测 识别 系统 大 多 是 针对 单 
人 脸 检 测 是 目标 检测 识别 中 一 个 热点 研究 领域 ， 即 采用 一 ”一 特定 问题 的 解决 方案 ， 系 统 整体 的 泛 化 能 力 较 差 ， 男 外 ， 当 
定 的 策略 在 任意 一 幅 给 定 的 图 片 中 检测 其 中 的 人 脸 区 域 ， 以 返 ” 时 系统 的 所 处 理 的 数据 量规 模 都 较 小 ， 难 以 在 实际 问题 中 实现 
可 人 脸 的 位 置 或 者 其 他 信息 。 在 早期 的 图 像 识别 系统 中 ， 主 住 确 的 识别 效果 中。 
是 通过 尺度 不 变 特征 变换 (scale-invariant feature transform,SIFT) 深度 学 习 是 机 器 学 习 的 一 个 分 支 ， 是 近 些 年 来 机 器 学 习 领 
和 方向 梯度 直方 图 (histogram of oriented gradients,HOG) 等 方法 域 取 得 的 重大 突破 和 研究 热点 之 一 Pg。2011 年 以 来 ， 研究 人 
进行 特征 提取 ， 然 后 将 提取 到 的 特征 输入 分 类 器 中 进行 图 像 识 员 首 先 在 语音 识别 问题 上 应 用 深度 学 习 技术 ， 将 识别 的 准确 率 
别 。 上 述 方法 所 得 到 的 特征 本 质 上 是 人 工 设计 的 特征 ， 对 于 不 ”提高 了 20% 一 30%， 取 得 了 十 年 来 最 具 突 破 性 的 进展 。 仅 仅 一 
同 的 检测 识别 问题 ， 所 提取 的 特征 对 系统 的 性 能 有 着 显著 地 影 。 年 之 后 ， 基 于 卷 积 神经 网 络 的 深度 学 习 模型 就 在 大 规模 图 像 识 
响 ， 因 此 这 需要 研究 人 员 对 所 要 解决 的 问题 有 着 非常 深入 的 了 ” 别 分 类 任务 上 取得 了 非常 大 的 性 能 提高 ， 掀 起 了 深度 
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网 络 进行 卷 积 ， 池 


输出 到 最 后 的 全 连接 层 


化 等 一 系列 


保持 一 致 。 原 因 在 于 当 卷 积 
操作 之 后 将 会 把 得 到 的 数据 


这 也 


就 意味 着 与 全 连接 


值 数 
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大 小 放 缩 或 者 裁剪 成 统 


量 发 生 改 变 ， 


XE 


层 相 连 的 权 


则 无 法 进行 权 值 


P, 而 全 连接 层 的 神经 元 数量 是 固定 的 ， 
值 数 量 要 保持 固定 ， 如 果 权 
的 计算 或 者 更 新 。 因 此 ， 几 


经 网 络 在 进行 图 片 处 理 之 


前 都 需要 将 输入 图 片 的 
尺寸 ， 这 样 才能 进行 卷 积 神经 网 络 的 


训练 或 者 测试 。 
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脸 图 片 通过 非 最 大 值 抑制 (NMS) 进 行 最 后 整合 ， 在 原 图 中 标记 


出 人 脸 区 域 位 置 。 经 过 在 标准 人 
出 的 算法 在 检测 性 能 和 所 用 时 间 上 比 传统 方法 都 


从 数据 集 上 的 实验 ， 本 文 所 提 
有 较 大 提升 。 


1 ” 卷 积 神经 网 络 


卷 积 神经 网 络 起 源 于 20 世纪 60 年 代 初 


HH, Hubel 和 Wiesel 


等 人 通过 对 猫 的 大 脑 视觉 皮层 系统 的 研究 ， 提 出 了 感受 野 的 概 
念 ,并 进一步 发 现 了 视觉 皮层 通路 中 对 于 信息 的 分 层 处 理 机 制 ， 


Fukushima 等 人 基 


此 获得 了 诺 贝 尔 生 理学 或 医学 奖 。 到 了 80 年 代 中 期 ， 
于 感受 野 概 念 提出 的 神经 认 知 机 ， 可 以 看 做 


针对 这 一 问题 ， He 等 人 外 提出 了 可 以 实现 卷 积 神经 网 络 是 卷 积 神经 网 络 (convolution neural networks,CNNs) 的 第 一 次 实 
多 尺度 输入 的 空间 金字 塔 池 化 算法 (spatial pyramid pooling)。 空 现 ， 也 是 第 一 个 基于 神经 元 之 间 的 局 部 连接 性 和 层次 结构 组 织 
间 金 字 塔 池 化 算法 通过 在 卷 积 神经 网 络 的 全 连接 层 之 前 加 入 金 。 的 人 工 神经 网 络 。1990 年 ，LeCun 等 人 在 研究 手写 数字 识别 问 
字 塔 池 化 层 ， 将 卷 积 池 化 得 到 的 不 同 尺 寸 大 小 的 特征 图 ， 经 过  ” 题 时 ， 首 先 提 出 了 使 用 梯度 反 向 传播 算法 训练 的 卷 积 神经 网 络 
金字 塔 池 化 处 理 之 后 ， 形 成 统一 维度 大 小 的 数据 输出 到 之 后 的 模型 ， 并 在 MNIST 手写 数字 数据 集 上 表现 出 了 相对 于 当时 其 
全 连接 层 中 。 这 样 就 使 得 输入 卷 积 神经 网 络 的 图 片 大 小 不 再 需 ”他 方法 更 好 的 性 能 。 目 前 ， 卷 积 神经 网 络 已 成 为 当前 图 像 识 别 
要 统一 的 大 小 ， 可 以 让 图 片 本 身 在 预 处 理 阶 段 有 更 多 的 信息 被 ”领域 的 研究 热点 ， 它 是 第 一 个 真正 意义 上 的 成 功 训练 多 层 神经 
保留 下 来 ， 在 之 后 用 卷 积 神经 网 络 提取 到 关键 特征 的 可 能 性 更 。 网 络 的 学 习 算 法 模型 ， 对 于 网 络 的 输入 是 多 维 信号 时 具有 更 明 
高 。 SI 538 01-91, 

另外 ， 在 许多 卷 积 神经 网 络 进行 的 图 像 处 理 中 ， 更 多 的 是 1.1 级 联 卷 积 神经 网 络 
设计 一 个 单一 的 卷 积 网 络 模型 ， 这 样 神 经 网 络 采集 的 特征 也 相 由 于 最 近 几 年 在 人 脸 检测 领域 方面 的 研究 主要 集中 在 所 识 
对 单一 ， 使 得 网 络 模型 的 泛 化 性 能 不 强 ， 往 往 针 对 某 些 问题 有 别 的 人 脸 区 域 中 不 可 控 部 分 的 问题 上 ， 如 夸张 的 表情 、 姿 势 改 
较 好 的 效果 ， 在 针对 其 他 问题 时 可 能 效果 一 般 。 变 、 面 部 遮挡 等 !。 这 些 情况 都 会 影响 到 人 脸 检 测 的 最 终 效果 。 


因此 , Li 等 人 09 在 CVPR2015 EH 


了 级 联 卷 积 神经 网 络 


A. i 


j 对 如 此 多 的 问题 ， 仅 靠 单一 结构 的 模型 进行 检测 很 难 


(convolutional neural network cascade) 的 算法 模型 ， 模 型 结构 简 产生 良好 的 泛 化 能 力 ， 使 得 模型 在 实际 应 用 中 的 鲁 棒 性 较 低 。 
化 图 如 图 1 所 示 。 该 模型 通过 将 不 同 结构 的 卷 积 神经 网 络 模型 ” 因此 ， 现 在 人 脸 检测 方面 的 三 个 主要 难点 是 : a) 人 脸 在 杂乱 情 
连接 起 来 ， 逐 步 地 进行 特征 提取 。 模 型 结构 由 简单 到 复杂 ， 开 ” 景 中 的 可 变 情况 太 多 ; b) 图 片 中 可 能 的 人 上 脸 位 置 和 人 脸 大 小 的 
始 卷 积 神经 网 络 较为 简单 ， 相 当 于 特征 的 粗 提取 过 程 ， 大 致 地 KERL: co) 单一 结构 的 模型 在 情况 多 变 的 问题 上 和 鲁 棒 性 不 强 。 
对 输入 图 片 进行 初步 分 类 ， 将 分 类 结果 为 检测 目标 的 图 片 输入 针对 以 上 问题 ，Li 等 人 在 文献 [10] 中 提出 的 级 联 卷 积 神经 
到 下 一 级 卷 积 神经 网 络 模 型 中 ， 该 级 模型 相 较 于 上 一 级 则 会 更 。 网 络 模型 ， 有 效 地 解决 了 上 述 面临 的 主要 难点 。 级 联 卷 积 神经 
加 复杂 ， 图 片 特征 的 提取 过 程 也 会 更 加 细致 ， 再 经 过 这 一 级 图 。 网 络 的 理论 来 源 主要 是 2001 年 Viola 等 人 5 提出 的 简单 特征 
片 分 类 将 需要 的 结果 输入 到 最 后 的 最 为 复杂 的 网 络 中 ， 进 行 最 ”的 级 联 加 速 器 (boosted cascade of simple features) 的 算法 。 该 算 
后 的 特征 提取 ， 最 终 得 到 分 类 结果 。 该 模型 利用 不 同 模型 提取 ”法 建立 了 一 种 将 简单 特征 集合 起 来 作为 分 类 器 的 思路 。 虽 然 在 
特征 , 逐步 精确 , 在 降低 了 检测 时 间 的 同时 , 也 提高 了 准确 率 。 这 之 后 提出 了 很 多 V-J 算法 进行 改进 的 方案 ， 但 在 改进 的 过 程 
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经 网 络 人 脸 检 测算 法 。 
经 网 络 的 思想 设计 出 三 级 级 联 的 卷 积 
然后 将 金字 塔 池 化 方法 租 入 到 每 一 级 的 卷 积 
级 的 网 络 模型 都 不 会 受到 输入 
整体 人 脸 检 测 过 程 主要 分 为 三 步 : 
图 片 ， 得 出 要 检测 的 所 有 候选 框 ; 


好 的 级 联 神经 网 络 模型 中 进行 人 脸 
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选取 


出 现 误差 时 ， 整 个 模型 的 检测 效果 就 会 降低 很 多 ， 同 时 对 复杂 


情况 的 泛 化 性 能 也 不 强 。 
卷 积 神经 网 络 作为 特征 提 
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于 这 样 的 原因 ，Li 等 人 选择 了 
取 的 方式 。 与 之 前 人 工 所 选取 的 特征 


不 同 ， 卷 积 神经 网 络 可 以 自动 地 去 学 习 特征 


并 且 可 以 在 训练 


大 量 样本 的 过 程 中 捕捉 到 人 脸 区 域 中 各 种 复杂 多 变 的 情况 ， 这 


对 于 构建 一 个 能 够 精确 获取 人 
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丛 特 征 的 人 脸 检 测算 法 是 极为 重 


Li 等 人 提出 级 联 卷 积 神经 网 络 的 主要 结构 如 图 2 所 示 。 从 


图 中 可 以 看 出 ， 该 网 络 模型 主要 | 


三 级 卷 积 神经 网 络 组 成 。 其 


中 每 级 包括 一 个 二 分 类 网 络 (12-net, 24-net, 48-net) fl 


个 校准 
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网 络 (12-calibration,24-calibration, 48-calibration)。 这 三 级 网 络 首 
先 在 输入 图 片 的 分 辨 率 上 有 所 不 同 ， 分 状 率 逐渐 加 大 主要 是 为 
了 逐渐 提高 识别 精度 , 而 且 可 以 减少 运行 时 间 , 提高 模型 效率 ; 

其 次 三 级 网 络 的 结构 各 不 相同 ， 可 以 明显 地 看 出 网 络 结构 从 简 
单 到 复杂 ， 前 面 简单 的 网 络 进行 特征 的 粗 提 取 ， 后 面 复杂 的 网 
络 将 对 前 面 筛选 出 来 的 图 片 进行 更 加 精确 的 分 类 。 整 个 网 路 的 
工作 流程 就 是 首先 将 待 检测 图 片 输入 第 一 级 二 分 类 网 络 中 进行 
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特征 分 类 ， 如 果 第 一 级 二 分 类 网 络 } 


名 定 是 人 脸 图 片 ， 则 将 会 把 


图 
片 ， 则 会 直接 剔除 这 张 图 片 进行 下 


片 输入 到 第 一 级 矫正 网 络 中 进行 位 置 矫正 ， 如 果 不 是 人 


AA] 


定 为 人 脸 的 图 片 输入 到 第 二 级 二 分 类 网 络 中 ， 
同 的 操作 ;经 过 最 后 一 级 网 络 得 到 的 人 脸 区 域 图 片 
大 值 抑制 on-maximum suppression, NMS) fR, dg t Ji [| vn 


标记 出 人 脸 位 置 


张 图 片 的 判断 ， 然 后 将 判 
再 进行 与 之 前 相 
通过 非 最 


卷 积 层 *1 卷 积 层 *1 
池 化 层 *1 池 化 层 *1 
共 5 层 图 > 255 
对 候选 框 
进行 位 置 12- 
taner 矫正 calibration 
输入 图 片 经 过 固定 大 小 窗 第 一 级 卷 积 神经 网 络 
口 扫 描 得 到 候选 
iE 
[ | 
卷 积 层 #1 卷 积 层 #1 | 卷 积 层 *2 卷 积 层 *2 
池 化 层 #1 池 化 层 #1 | 池 化 层 *2 池 化 层 *2 | 
| | 
> | 
dts O> | 共 5 层 dto nm 一 一 人 > 共 8 层 a > 
对 候选 杠 E | | NMS 
进行 位 置 24- A i B — 
24-net TO. 2 d | || 48-net 48-calibration | 
矫正 = 六 
calibration 入 第 三 级 Í 第 三 级 卷 积 神经 网 络 
第 二 级 卷 积 神经 网 络 
图 2 级 联 卷 积 神经 网 络 主要 结构 
该 模型 在 标准 人 脸 数据 集 的 测试 中 有 着 不 错 的 准确 率 。 另 针对 这 一 问题 ，He 等 人 在 文献 [9] 中 提出 了 空间 金字 塔 池 


外 ， 得 益 于 前 两 级 较为 简单 的 网 络 结构 ， 使 得 模型 整体 的 检测 
速率 也 有 所 提高 ， 所 用 时 间 相 对 于 其 他 传统 网 络 明 显 减 少 。 
1.2 空间 金字 塔 池 化 
1.2.1 空间 金字 塔 池 化 介绍 

对 于 现在 多 数 在 使 用 的 卷 积 神经 网 络 而 言 ， 都 要 求 卷 积 h 
经 网 络 的 输入 尺寸 是 固定 大 小 的 ， 这 就 要 求 卷 积 神经 网 络 在 
练 或 者 测试 之 前 需要 将 数据 的 输入 尺寸 放 缩 到 相同 的 尺寸 大 小 。 
例如 著名 的 卷 积 神经 网 络 模型 AlexNet， 在 进行 图 像 处 理 
求 输入 图 片 的 尺寸 统一 为 227x227。 也 就 是 说 ， 将 输入 数据 放 
缩 成 统一 的 大 小 尺寸 是 训练 或 者 测试 卷 积 神经 网 络 的 首要 步 又 。 
但 是 在 数据 预 处 理 时 ， 比 如 将 原始 图 片 放 缩 或 者 裁剪 成 统一 大 


小 (图 3)， 当 输入 图 片 的 尺度 发 生变 化 时 , 传统 卷 积 神经 网 络 将 
无 法 实现 图 片 的 多 尺度 输入 ,同时 在 统一 大 小 的 过 程 相 对 于 多 


尺度 的 预 处 理 过 程 会 有 更 多 数据 的 损失 ， 这 对 之 后 的 训练 和 测 
试 都 会 有 一 定 的 影响 。 


裁剪 或 放 缩 
成 尺度 A M 
c 


可 以 输入 
并 检测 


图 片 预 处 理 


化 (spatial pyramid pooling,SPP) 的 算法 来 解决 输入 数据 的 尺度 变 


化 问题 。 由 于 卷 积 
只 有 在 经 过 卷 积 层 和 池 


民 和 池 化 
化 


慨 都 不 要 求 
之 后 的 全 连 


固定 尺寸 大 小 的 输入 ， 
ps 固定 大 小 的 输 


E e 


= 
x 
LL. 
az 


入 。 这 里 可 以 假设 输入 图 


的 卷 积 核 之 后 会 产生 5x98x98 的 特征 医 
变 成 102x102 时 , 在 经 过 相同 操作 之 后 就 会 得 到 5x100x100 


特征 图 
到 25x25 和 26x26 的 特征 图 。 
和 池 化 
寸 的 预 处 
有 要 求 的 。 


— 
云 HJ 


操作 。1 


假设 最 后 


是 在 之 后 


而 如 果 
连接 的 矩阵 维 


金字 塔 池 化 
被 处 理 成 相同 
图 


间 


的 大 小 是 100x100， 


， 那 么 两 种 大 小 的 输入 在 经 过 
Lib, 
以 处 理 任 意 输 入 大 小 的 图 片 ， 无 须 进行 调整 输入 尺 
的 全 连 
个 卷 积 层 有 50 
有 1000 个 神经 元 ， 那 么 这 个 连接 矩阵 的 维 
网 络 每 次 的 输入 图 片 大 小 不 一 样 ， 
度 将 会 发 生 改 变 ， 使 得 网 络 无 法 训练 或 者 测试 。 
所 以 ， 空 间 金字 塔 池 化 算法 就 是 在 全 连 

E 输 入 到 全 连接 
E 度 的 数据 。 引 入 金字 
4 所 示 。 从 图 中 可 以 明显 看 出 ， 输 入 图 像 在 引入 金字 塔 池 化 


经 过 5 个 3x3 
， 而 当 输入 图 片 的 大 小 
的 
二 2x2 的 池 化 之 后 会 分 别 得 
从 这 里 可 以 看 出 ， 卷 积 


区 


E 


E 


赚 层 是 需要 对 输入 的 大 小 
个 输出 ， 层 全 连接 层 
度 就 是 50x1000; 
那么 之 后 与 全 连接 


NII 


一 个 空 


接 


E 


Z 


层 之 前 加 入 了 
的 任意 大 小 的 图 片 都 
若 池 化 的 卷 积 神经 网 络 如 


后 无 须 进 行 预 处 理 ， 实 现 了 卷 积 神经 网 络 的 多 尺度 输入 。 


1.2.2 空间 金字 塔 池 化 具体 算法 


如 图 5 所 示 , 从 上 往 下 看 ,这 是 一 个 传统 的 网 络 架构 模型 ， 


卷 积 层 后 面 连接 着 全 连接 


民 。 这 里 需要 处 理 的 就 是 在 网 络 的 全 


连接 层 之 前 加 入 金字 塔 池 化 


层 来 解决 输入 图 片 大 小 不 一 的 情况 。 
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进行 


中 间 是 把 特征 图 
份 进行 池 化 。 这 样 最 终 就 会 连接 成 一 个 16+4+1=21 的 特征 
输入 到 全 连接 层 中 .这样 就 


可 以 看 出 这 里 的 金 邱 


A 


3 个 池 化 操作 :最 上 边 池 化 操作 是 对 原始 特征 
分 成 4 份 进行 池 化 , 最 下 面 是 把 特征 图 


塔 池 化 层 就 是 把 前 一 卷 积 层 得 出 的 特征 图 
图 进行 池 化 ， 
分 成 16 


解决 了 输入 图 片 大 小 不 一 致 的 


CNN 


向 量 
问题 


待 检测 BUE ; 
without pr E 输入 卷 积 一 es 输出 
sep | 图 片 [7 Mes 
CNN “| 待 检测 | 人、 输入 |_、| 卷 积 | | 空间 人 金字塔 |_ 人 | 全 连 |_ | 输出 
with SPP| 图 片 Z | ”| RI 池 化 层 接 层 | B 
图 4 空间 金字 塔 池 化 位 置 图 
Pool1*1 resize 
Pool-max pool 
Inputs-conv 
winzcell(a/1) 
strides-floor(a/1) 
Pool2*2 resize 
Pool-max pool 
Inputs-conv 
winzcell(a/2) 
strides-floor(a/2) 
Pool4*4 resize 
卷 积 层 结果 Pool=max_pool 
conv ME dia) 
大 小 : a*a Sridas-fiooría/3) 
图 5 金字 塔 池 化 算法 演示 
在 图 片 输入 大 小 不 等 的 情况 下 ， 假 设 经 过 卷 积 池 化 操作 之 
后 得 到 的 特征 图 的 大 小 是 axa, 而 金字 塔 池 化 的 通道 数 是 n， 那 
么 每 一 个 窗口 的 边 长 是 win=cell(a/n)， 池 化 移动 步 长 是 


strides=floor(a/n)， 其 中 cell 是 向 上 取 整 ，floor 是 向 下 取 整 。 


最 终 经 过 金字 塔 池 化 会 形成 如 


图 5 所 示 的 n 个 池 化 操作 ， 


经 过 固定 大 小 窗口 
扫描 得 到 候选 框 


这 些 


iv 合作 


ChinaX 1 
: 尺度 无 关 的 级 联 卷 积 神经 网 络 人 脸 检 测算 法 


AR 


池 化 操作 都 会 采用 基本 的 池 


化 方法 (如 最 大 池 化 )， 只 


H 


4 不 过 使 用 


了 不 同 的 窗口 大 小 和 移动 步 长 而 已 。 

算法 1 SPP 方法 分 析 过 程 

输入 : 卷 积 池 化 后 的 特征 年 阵 义 e RL? 

输出 : 空间 金字 塔 池 化 后 的 特征 向 量 下 

Stepl : 计算 w = cell(a/m, h = cell(b/n, stridel = 
floor(a/n),stride2 = floor(b/n),n = 1, 2, 3+; 

Step2: 用 求 得 的 参数 分 别 对 特征 矩阵 X 进 行 池 化 ,得 到 特征 f1, f2, f3…; 
Step3: 将 求 得 的 特征 逐个 连接 ， 得 到 新 特征 F。 
2 ”基于 金字 塔 池 化 的 级 联 卷 积 神经 网 络 模 型 及 算法 
2.4 模型 设计 

虽然 级 联 卷 积 神 经 网 络 在 人 脸 检 测 领 域 有 着 出 色 的 性 能 ， 


但 是 算法 本 身 并 不 文 持 图 片 的 多 尺 


度 输入 ， 导 致 模型 在 预 处 理 


阶段 会 损失 图 片 的 大 部 分 信息 ; 


而 空间 金字 塔 池 化 算法 解决 了 


卷 积 神经 网 络 多 义 度 输入 的 问题 。 因 


尺度 无 关 的 级 联 卷 积 神 经 网 络 的 人 脸 检 测算 法 。 
算法 的 模型 结构 如 图 6 所 示 。 在 卷 积 神经 网 络 间 


此 ， 本 文 在 级 联 卷 积 神经 
网 络 的 基础 上 ， 结 合 空间 金字 塔 池 化 算法 的 优点 ， 提 


出 了 一 种 


的 全 连接 层 


之 前 加 入 了 金字 塔 池 化 层 ， 金 字 塔 池 化 的 通道 数 统 
样 每 一 级 卷 积 神经 网 络 就 都 支持 图 像 的 多 尺度 输入 ， 
网 络 的 结构 复杂 度 是 由 简单 到 复杂 。 
出 的 算法 也 采用 
片 检测 ， 本 文 所 提出 的 算法 并 没有 设置 校准 
型 仅仅 只 有 三 个 卷 积 神经 网 络 ， 在 训练 和 检测 速 
加 快 。 


第 一 级 卷 积 神经 网 络 


卷 积 


» 3*3 filters 3*3 kernel 5 pins 
stride 1 


金字 塔 ”全 连 
池 化 层 RUE 


pd 


64 outputs 2 classeg 
stride 2 


第 二 级 卷 积 神经 网 络 


卷 积 层 池 化 层 


金字 塔 $E 二 分 类 | 
池 化 层 ER 输出 层 | 
| | 


| 


| | 
| | 
| 


与 文献 [10] 相 比 ， 
了 三 级 级 联 卷 积 网 络 结构 。 为 了 更 快 地 进行 图 
网 络 。 这 样 整体 模 
度 上 都 会 大 大 


是 5， 这 
而 且 整 体 
本 文 所 提 


EA 


64 5*5 filters 3*3 kernel 5 bins 128 outputs 2 classed 


stride 1 stride 2 J 
第 三 级 卷 积 神经 网 络 
d — ME 金字 塔 ”全 连 ”二 分 类 
卷 积 层 池 化 层 CULO WR pe GE DO BE MAR 


" * * i 

64 5*5 filters 3*3 kernel — 645*5 filters 3*3 kernel © bins 256 — 2classes 

! stride1 stride2 —  stride1 — ^  stride2 " ^ outputs |. 
图 6 实验 模型 结构 
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2.2 


源 。 
片 )， 
[zs 


出 的 
训练 
E 
约 


的 


将 训 


算法 描述 
1) 训练 阶段 


在 训练 阶段 使 / 


在 


AFLW 数据 集 


挡 、 是 


否 戴 眼镜 等 信息 
照 AFLW 数据 集中 给 出 的 标 当 


在 训练 过 程 中 ， 


PASE 2.1 万 张 图 
ROMS pa 
。 因 此 ， 在 进行 生成 了 


3 的 是 AFLW 人 脸 数据 集 作为 正 样 


片 ( 基 


本 都 是 高 
三 维 旋 转角 度 、 
ER 


信息 将 人 脸 


区 


金字 塔 图 像 可 以 解决 输 


问题 ， 所 以 训练 时 采 ) 
本 统一 放 缩 到 24x24 K 
12x12 SONS 


练 好 的 模型 用 


次 收敛 之 后 则 认为 训练 过 程 完 


n 


2) 测试 阶段 


在 测试 阶段 ， 需 要 将 


FN E 


# 本 。 正 样 


EARN, d 
或 截 出 , 然后 对 截 
样本 进行 随机 的 平移 、 旋 转 和 翻 折 操作 ， 最 终 得 出 所 有 的 
正 样本 。 负 样本 则 是 从 COCO 数据 集中 选取 不 包含 人 脸 的 
进行 随机 切割 ， 最 终 得 到 所 有 的 负 相 
是 3.5 万 张 ， 负 样本 约 3 万 张 。 


本 的 数量 大 


Z] 


LX 


BERE 


了 两 种 分 辩 率 进行 训练 。 
str VIR, TE 
片 进 行 训练 ， 


| 练 结果 收敛 之 后 ， 青 
当 模 型 再 


首先 是 将 样 


Z] 


FEE 


HITET 


像 处 理 


, 


通过 这 种 方法 将 


大 
窗口 


按照 


标 
入 训 
部 分 
执行 


框 经 


区 


= 5 


£ 


KI 


小 的 区 


片 的 


记 好 所 有 候选 框 在 原 


片 组 。 然 后 对 图 
机 制 (sliding windows) 进 行 操作 ， 
24x24 大 小 进行 


区 


中 的 位 置信 息 


dn? 


练 好 的 


经 网 络 模 


晶 中 。 模 型 这 时 会 在 第 一 级 山 


片 进 行 预 处 到 


片 组 中 的 
这 里 的 滑动 窗 
操作 ,产生 所 有 的 大 小 为 24x 


折 有 


口 


将 所 有 的 


非 人 脸 图 


片 ， 保 留 候 选 框 中 的 人 脸 轿 


这 种 操作 ， 


或 的 候选 框 ， 
pk. 之后， 再 通 


直到 最 后 一 
过 非 极 大 值 抑制 (NMS) 
TRETEN E 
过 12x12 的 滑动 窗 


层 得 到 最 终 的 


1 除 重 复 性 


候选 框 。 
较 大 的 框 ， 


a 


得 出 
E 


f Jr 


Ha 


èI 


口 得 


E， 首 先 需 要 将 
图 片 放 缩 成 包含 不 
图 片 按 照 滑动 
将 会 首先 
24 的 候选 框 ， 
候选 框 放 
除 候选 框 
片 ， 之 后 的 网 络 依次 
最 后 将 候选 
HRA 


中 标记 出 
出 12x12 大 小 的 


候选 框 进行 对 比 测试 ， 完 善 多 尺度 输入 的 测试 。 整 体 算法 流程 


如 算 


5) 


记 位 置信 息 ; 
d) 将 


渝 出 :标记 出 人 脸 
利用 训练 样本 进行 
Hi 行人 


法 2 所 示 。 


算法 2 基于 金子 塔 池 化 


图 


: 待 检测 


片 


区 域 的 待 检测 


模型 训 


图 


竺 检测 


对 图 


片 组 中 的 所 有 


字 塔 图 片 处 理 ， 


图 片 进行 24x24( 或 12x12) 


T 


练 ; 


得 到 不 同 


得 到 的 所 有 候选 


一 级 网 络 包含 1 个 卷 积 


大 池 
e) 将 第 一 级 筛选 得 到 的 
网 络 包 含 1 个 卷 积 
化 )， 
f) 将 第 二 
网 络 包 含 2 个 卷 积 


窗 


比 )，1 个 金字 塔 池 化 


放 入 训练 完成 的 第 一 
UR (32 个 3x3 的 卷 积 核 )，1 个 池 化 层 (3x3 的 最 
层 (5 个 通道 )，1 个 全 连接 层 


级 卷 积 神经 网 


的 级 联 卷 积 神经 网 络 检测 算法 


尺度 大 小 的 
的 滑动 窗 


操作 ， 


络 ， 其 


1 个 金字 塔 池 化 


层 ( 


窗 


层 (5 个 通 


放 入 第 


络 ， 其 中 第 


道 )，1 个 全 连接 


级 筛选 得 到 的 候选 


窗 


放 入 第 三 


层 (3x3 的 最 


级 卷 积 神经 网 


络 ， 其 中 第 二 


层 (64 个 5x5 的 卷 积 核 )，2 个 池 化 


层 (3x3 的 最 


图 片 组 ; 


并 标 


中 第 


z (64 个 神经 元 ); 
级 卷 积 神经 网 


64 个 5x5 的 卷 积 核 )，1 个 池 化 


二 级 
大 池 


层 (128 个 神经 元 ); 


级 
大 池 


化 )，2 个 归 一 化 


Chi 
郑 成 浩 ， 等 : 二 


=] 


iv 合作 期 于 


Ma 


个 神经 元 ); 


g) 将 最 后 得 到 的 候选 窗 
h) 根 据 所 得 候选 窗 


3 


3.1 


况 下 ， 当 


实验 


训练 阶段 


在 


，1 个 金字 塔 池 化 


层 (5 个 通道 )，1 个 全 连接 层 (256 
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结果 分 析 


实验 


训练 阶段 ， 首 先 


输入 的 训练 图 片 尺 寸 为 12x12 与 24x24 时 ， 模 型 


结果 分 析 
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对 比 了 模型 


空间 金字 塔 池 化 层 的 情 
4 的 训 


练 收 敛 情况 与 训练 速度 的 对 比 : 然后 进行 在 输入 图 片 都 是 


24x2 


4 


情况 下 模型 中 


无 空间 金字 塔 池 化 


屋 的 训练 收敛 情况 与 


训练 速度 对 比 。 图 7 中 所 展示 都 是 第 二 级 卷 积 神经 网 络 的 训练 


收敛 


但 是 
本 ， 


RT 


jj 
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图 。 
当 输 入 图 片 大 小 分 别 为 12x12 和 24x24 时 ， 
37 所 示 。 从 图 7 可 以 看 出 ， 两 种 输入 尺寸 的 收敛 情况 几乎 
没有 太 大 差别 。 
MART 


训练 收敛 情况 


为 12x12 
为 24x24 


入 尺寸 
天 


pin 
ER IAN 


就 是 在 模型 结构 


但 是 训练 所 耗费 的 时 间 上 两 者 差别 较 
模型 每 秒 会 训练 3 000 个 左右 的 样本 ， 
时 模型 每 秒 仅仅 会 训练 750 个 左右 的 样 
与 参数 完全 一 样 的 情况 下 ， 图 片 


\ 数 据 量 越 小 ， 


此 可 以 得 


情况 。 


塔 池 
如 图 


塔 池 化 方法 
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速 地 得 
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出 ， 模 型 在 有 空 
输入 图 片 的 尺寸 不 同时 ， 收 敛 情况 几 
8 000 次 左右 时 


4 更 容易 进行 计算 。 

间 金 字 塔 池 化 层 的 情况 下 ， 当 
乎 无 差别 ， 都 会 在 训练 到 
图 片 的 输入 尺寸 不 会 影响 模型 的 收敛 


模型 


即 


图 7 


2 3 4 
training steps 


12x12 与 24x24 收敛 情况 对 比 


后 ， 在 输入 图 


H 


片 斥 二 都 是 24x24 的 情况 下 ， 对 加 入 


以 后 ， 模 型 


选 出 从 整体 到 局 


层 与 不 加 金字 塔 池 化 
所 示 。 从 图 中 可 以 看 出 ， 同 样 的 刘 


= 
| 练 数 据 ， 在 加 入 金字 
的 收敛 情况 会 相对 更 早 。 这 
是 从 粗 到 精 的 特征 提取 过 程 ， 可 以 更 快 

数据 有 着 更 好 的 泛 化 
会 使 卷 积 神经 网 络 模型 更 早 收 


部 的 关键 信息 ， 对 
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好 的 ， 其 次 是 12x12， 最 后 是 18x18。 
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==- model without SPP 


04 
| 
0 1 2 3 4 5 9 200 400 600 800 1000 1200 
training steps x 10* False Positives 
图 8 有 无 金字 塔 池 化 层 训练 对 比 图 9 ROC 曲线 -模型 有 无 金字 塔 池 化 效果 对 比 
3.2 测试 阶段 实验 结果 分 析 在 模型 训练 阶段 中 ， 由 于 模型 只 进行 了 12x12 和 24x24 两 


本 文 算法 的 测试 阶段 的 测试 数据 集 使 用 FDDB 人 脸 数据 集 ， 种 输入 尺寸 的 交叉 训练 ， 所 以 在 结果 中 可 以 发 现 输入 尺寸 为 
主要 测试 了 模型 在 这 种 数据 集 上 的 性 能 表现 。FDDB 是 全 世界 12x12 以 及 24x24 时 的 效果 更 好 。 而 输入 尺寸 为 24x24 时 的 结 
最 具 权 威 的 人 脸 检测 平台 之 一 ， 包 含 2845 张 图 片 ， 共有 5171 ” 果 更 好 的 原因 有 两 点 : a) 图 像 大 小 放 缩 成 12x12 的 过 程 中 要 损 
个 人 脸 作为 测试 集 。 测 试 集 范围 包括 不 同 姿势 、 不 同 分 辩 率 、 失 更 多 的 信息 ， 这 样 模型 提取 到 的 特征 相对 于 24x24 大 小 的 图 
旋转 和 人 遮挡 等 图 片 ， 同 时 还 包括 灰 度 图 和 彩色 图 ， 标 准 的 人 脸 片 来 说 就 会 变 少 ， 使 得 检测 性 能 降低 ; b) 在 图 像 输 入 之 前 需要 
标注 区 域 为 椭圆 形 。 这 里 在 本 文 的 测试 中 ,采用 了 FDDB 的 另 ” 进行 金字 塔 图像 的 操作 ， 当 12x12 的 窗口 扫描 到 完整 的 人 脸 区 
一 种 矩阵 框 标记 形式 , 也 就 是 通过 标准 椭圆 标注 信息 进行 转换 ， ” 域 时 图 像 已 经 被 放 缩 的 很 小 ， 失 真 率 很 高 ， 而 24x24 窗口 扫描 


生成 标准 矩阵 标注 信息 。 结果 信息 相对 完整 。 因 此 ， 会 出 现 24x24 效果 更 好 的 情况 。 
首先 进行 测试 的 是 在 FDDB 数据 集中 ,模型 中 添加 了 空间 虽然 三 种 输入 尺寸 的 检测 结果 有 所 不 同 ， 但 是 检测 结果 十 
金字 塔 池 化 层 (SPP) 的 检测 性 能 与 模型 中 没有 空间 金字 塔 池 化 。 分 接近 。 另 外 ， 模 型 并 没有 进行 18x18 大 小 的 图 片 的 训练 ， 检 


层 的 检测 性 能 的 比较 ， 如 图 9 所 示 。 图 9 所 使 用 的 ROC 曲线 测 结 果 依 旧 与 其 他 两 种 比较 相似 。 从 这 里 就 可 以 看 出 ， 加 入 金 
又 称 感受 型 曲线 ， 曲 线 上 的 各 点 反映 着 相同 的 感受 性 ， 曲 线 所  ” 字 塔 池 化 层 的 级 联 卷 积 神经 网 络 可 以 实现 多 种 不 同 尺 度 大 小 的 
覆盖 面积 越 大 说 明 效 果 越 好 。 在 FDDB 数据 集 的 结果 检测 中 ， 输入 ， 并 且 模 型 在 面 对 不 同 尺度 的 输入 数据 时 可 以 有 相近 的 检 
统一 用 ROC 曲线 (receiver operating characteristic curve， 受 试 者 测 准 确 率 。 

工作 特征 曲线 ) 作 为 模型 检测 性 能 的 标准 , FDDB 数据 集结 果 评 

测 中 会 使 

于 两 者 都 能 反映 出 模型 的 性 能 表现 ， 所 以 在 测试 中 前 两 种 测试 
结果 曲线 只 展示 了 continue score 的 结果 图 , 在 最 后 与 其 他 方法 
的 对 比 时 会 进行 两 种 结果 图 的 展示 。 

在 图 9 中 可 以 看 到 ， 本 文 所 采用 的 三 级 卷 积 神经 网 络 在 每 
级 中 都 添加 空间 金字 塔 池 化 层 时 模型 的 检测 效果 是 要 相对 较 好 
的 (这 里 输入 模型 的 图 片 大 小 都 是 24x24， 区 别 就 只 有 模型 中 是 | 
否 加 入 了 金字 塔 池 化 层 )。 另 外 , 在 图 中 添加 空间 金字 塔 池 化 层 % 200 «e 00 1000 1200 
的 网 络 模型 的 曲线 可 以 更 快 地 趋 于 平稳 ， 这 就 说 明 模 型 的 检测 


] continue score 和 discontinue score 来 进行 评价 ， 


True Positive Rate 


图 10 ROC 曲线 -不 同 分 辨 率 输入 对 比 


性 能 更 加 稳定 ,在 样本 量 较 少 的 情况 下 也 能 有 较 高 的 检测 性 能 ; 

而 当 样 本 的 数量 增加 时 ， 模 型 的 效果 又 不 会 因为 样本 的 增加 而 最 后 ， 进 行 了 本 文 所 提出 的 模型 与 其 他 知名 的 性 能 对 比 ， 

改变 ， 也 就 表明 金字 塔 池 化 层 在 提高 模型 的 检测 性 能 的 同时 ， 对 比 结果 如 图 11 所 示 。 所 对 比 的 模型 有 经 典 的 V-J 人 脸 检 测 模 

也 提升 了 模型 的 鲁 棒 性 。 型 、 基 于 级 联 SURF 特征 的 人 脸 检测 模型 "9， 以 及 文献 [10] 所 
接 下 来 ， 使 用 了 不 同 大 小 的 输入 图 片 对 模型 的 性 能 进行 测 。 提出 的 级 联 卷 积 神经 网 络 模 型 。 可 以 发 现 ， 本 文 所 提出 的 算法 


vw. 测试 结果 如 图 10 所 示 。 在 测试 中 , 分 别 将 输入 模型 中 的 图 “在 FDDB 数据 集 的 测试 中 相对 于 V-J 模型 以 及 基于 SURF 特征 
片 大 小 放 缩 成 12x12、18x18、24x24 三 种 尺寸 ， 并 进行 三 种 输 。” 的 这 些 使 用 传统 方法 的 人 脸 检测 模型 来 说 ， 显 示 出 了 更 优秀 的 
入 大 小 的 检测 结果 对 比 。 在 图 10 中 可 以 明显 看 出 , 三 种 输入 尺 。” ”检测 能 力 ， 并 且 算 法 对 不 同情 况 的 人 脸 区 域 都 有 较为 理想 的 检 
寸 的 检测 结果 曲线 比较 接近 ， 其 中 输入 尺寸 为 24x24 时 效果 最 ，” 测 结果 。 可 见 模型 对 于 大 数据 集 也 具有 不 错 的 泛 化 能 


录用 稿 
另外 , 从 图 11 还 能 发 现 , 从 本 文 所 提出 的 加 入 金字 塔 池 化 


的 级 联 卷 积 神经 网 络 与 文献 [10] 中 级 联 卷 积 神经 网 络 的 性 能 效 
果 对 比 来 看 ， 本 文 所 提出 的 算法 性 能 相对 较 低 ， 但 是 本 文 所 提 
出 的 算法 大 幅度 减少 了 模型 的 复杂 性 ， 也 大 大 减少 了 训练 模型 
的 时 间 ; 同时 , 在 进行 检测 时 的 所 用 时 间 也 相对 更 少 , 文献 [10] 
模型 在 使 用 一 个 E5-2620 的 CPU 检测 大 小 为 640x480 图 片 得 
到 了 大 约 14 FPS 的 检测 速度 ， 而 本 文 的 在 17-4712MQ(TH 
低 ) 的 CPU 上 检测 同样 大 小 的 图 片 达到 了 大 约 19 FPS 的 检测 速 
度 (其 他 硬件 也 有 影响 )。 最 后 , 加 入 了 人 金字塔 池 化 层 的 卷 积 神经 
络 让 模型 的 性 能 有 所 提升 的 同时 ， 


Lr. 
HF 
um 
EC 
YE 

5 


p rj ap 
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(D)ROC 
图 11 本文 所 提出 的 模型 与 其 他 知名 的 性 能 对 比 结果 


线 -discontinue score 


图 12 和 13 是 本 文 模型 的 最 终 检 测 结果 示意 图 。 由 于 使 用 
的 滑动 窗口 的 大 小 都 是 正方 形 ， 所 以 检测 结果 也 是 正方 形 的 检 
WE. 另外 , 从 实际 结果 图 来 看 , 输入 图 片 尺寸 24x24 与 12x12 
的 检测 结果 差异 不 大 。 整 体 来 说 ， 本 文 所 提出 的 模型 经 过 实际 
数据 集 测试 后 ， 在 实现 了 卷 积 神经 网 络 对 图 片 的 多 尺度 输入 的 
同时 ， 相 对 于 传统 算法 在 性 能 上 也 有 提升 。 


D 


12. 12x12 检测 结果 
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图 13 24x24 检测 结果 


4 ”结束 语 

本 文 针对 目前 卷 积 神经 网 络 不 能 支持 多 尺度 数据 输入 以 及 
单一 结构 模型 对 复杂 情况 泛 化 能 力 不 强 的 问题 ， 提 出 了 基于 金 
字 塔 池 化 的 级 联 卷 积 神经 网 络 的 人 脸 检测 算法 。 通 过 引入 金字 
塔 池 化 的 方法 ， 实 现 了 卷 积 神经 网 络 的 多 尺度 输入 ， 也 在 一 定 
程度 上 对 卷 积 神经 网 络 的 性 能 有 所 提升 ， 然 后 结合 了 级 联 卷 积 


神经 网 络 的 算法 ， 使 得 模型 不 在 局 限于 单 
型 在 复杂 情况 下 的 泛 化 能 力 有 所 增强 。 
当然 模型 还 有 需要 进一步 完善 的 地 方 。 接 下 来 的 工作 将 会 
首先 将 正方 形 检 测 框 改 成 矩形 甚至 椭圆 形 ， 使 得 模型 在 人 脸 数 
据 集中 有 更 精确 的 检测 精度 ， 另 外 ， 在 计算 时 间 方 面 ， 将 会 进 
一 步 减少 输入 模型 的 候选 框 数量 , 进一步 提高 算法 的 运行 效率 。 
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